Audio digital

El audio digital es la codificación digital de una señal eléctrica que representa una onda sonora. Consiste en una secuencia de valores enteros y se obtiene de dos procesos: el muestreo y la cuantificación digital de la señal eléctrica.

El muestreo consiste en fijar la amplitud de la señal eléctrica a intervalos regulares de tiempo (tasa de muestreo). Para cubrir el espectro audible (20 a 20 000 Hz) suele bastar con tasas de muestreo de algo más de 40000 Hz (el estándar del CD de audio emplea una tasa un 10% mayor con objeto de contemplar el uso de filtros no ideales). Con 32000 muestras por segundo se tendría un ancho de banda similar al de la radio FM o una cinta de casete; es decir, permite registrar componentes de hasta 15 kHz, aproximadamente.

Para reproducir un determinado intervalo de frecuencias se necesita una tasa de muestreo de poco más del doble (según el Teorema de muestreo de Nyquist-Shannon). Por ejemplo en los CD, que reproducen señales de hasta 20 kHz de frecuencia, se emplea una tasa de muestreo de 44,1 kHz (frecuencia Nyquist de 22,05 kHz).

La cuantificación consiste en convertir el nivel de las muestras fijadas en el proceso de muestreo, normalmente un nivel de tensión, en un valor entero de rango finito y predeterminado. Por ejemplo, utilizando cuantificación lineal, una codificación lineal de 8 bits discriminará entre 256 niveles de señal equidistantes (2⁸). También se pueden hacer cuantificaciones no lineales, como es el caso de las cuantificaciones logarítmicas como la Ley Mu o la Ley A, que, a modo de ejemplo, aún usando 8 bits funcionan perceptualmente como 10 bits lineales para señales de baja amplitud en promedio, como la voz humana por ejemplo.

El formato más usado de audio digital PCM lineal es el del CD de audio: 44,1 kHz de tasa de muestreo y cuantificación lineal de 16 bits (que mide 65536 niveles de señal diferentes) y que, en la práctica permite registrar señales analógicas con componentes hasta los 20 kHz y con relaciones señal a ruido de más de 90 dB.

Ejemplo de reconstrucción de una señal de 14,7 kHz (línea gris discontinua) con solo cinco muestras. Cada ciclo se compone de solo 3 muestras a 44 100 muestras por segundo. La reconstrucción teórica resulta de la suma ponderada de la función de interpolación *g(t)* y sus versiones correspondientes desplazadas en el tiempo *g(t-nT)* con $-\infty <n<\infty \,\!$ , donde los coeficientes de ponderación son las muestras *x(n)*. En esta imagen cada función de interpolación está representada con un color (en total, cinco) y están ponderadas al valor de su correspondiente muestra (el máximo de cada función pasa por un punto azul que representa la muestra).

De acuerdo con el Teorema de muestreo de Nyquist, la tasa de muestreo, esto es, el número de muestras con las que se realiza el proceso de muestreo en una unidad de tiempo, determina exclusivamente la frecuencia máxima de los componentes armónicos que pueden formar parte del material a digitalizar.^[1] Satisfechos los requerimientos de Nyquist y un pequeño margen práctico, y al contrario de lo que es una creencia errónea muy extendida,^[2] no existe relación directa entre el sobremuestreo A/D (realizar el muestreo digital a una tasa mayor de la estrictamente necesaria para el ancho de banda de interés) y una mayor fidelidad en la posterior reconstrucción de la señal en todo el espectro (hasta la frecuencia de Nyquist).^[3]

Con objeto de evitar el fenómeno conocido como aliasing, es necesario eliminar todos los componentes de frecuencias que exceden la mitad de la tasa de muestreo, es decir, del límite de Nyquist, antes del proceso de digitalización (conversión A/D). En la práctica, estos componentes se atenúan fuertemente mediante un filtro activo analógico paso-bajo que se aplica a la señal analógica de interés antes de su digitalización y que para este objetivo se denomina filtro antialiasing. En el proceso de reconstrucción posterior (conversión D/A) de la reproducción se deberá aplicar en esencia el mismo filtrado analógico mediante un filtro que, empleado en este proceso, se denomina de reconstrucción.

↑ Teoría de muestreo (Dan Lavry de Lavry Engineering, Inc.): Archivado el 14 de junio de 2006 en Wayback Machine. Por qué más no es mejor. (inglés)
↑ Embedded Signal Processing Laboratory (University of Texas at Austin): Debunking Audio Myths Desenmascarando los mitos del audio (inglés). Véase "Mito 4: Necesitamos 96 kHz, no, mejor 192 kHz".
↑ Las técnicas de Noise-Shaping pueden mejorar la relación señal a ruido de parte del espectro hasta el límite de Nyquist pero siempre a cambio de empeorar esa relación en otra parte de ese mismo espectro. No hay nunca, por tanto, mejora global de ningún tipo en todo el espectro hasta la frecuencia de Nyquist por aumentar la tasa, incluso cuando este aumento se realiza con la intención de aplicar estas técnicas de modelado de ruido.

[1] Teoría de muestreo (Dan Lavry de Lavry Engineering, Inc.): Archivado el 14 de junio de 2006 en Wayback Machine. Por qué más no es mejor. (inglés)

[2] Embedded Signal Processing Laboratory (University of Texas at Austin): Debunking Audio Myths Desenmascarando los mitos del audio (inglés). Véase "Mito 4: Necesitamos 96 kHz, no, mejor 192 kHz".

[3] Las técnicas de Noise-Shaping pueden mejorar la relación señal a ruido de parte del espectro hasta el límite de Nyquist pero siempre a cambio de empeorar esa relación en otra parte de ese mismo espectro. No hay nunca, por tanto, mejora global de ningún tipo en todo el espectro hasta la frecuencia de Nyquist por aumentar la tasa, incluso cuando este aumento se realiza con la intención de aplicar estas técnicas de modelado de ruido.

[1]

[2]

[3]